【NLP论文分享&&源码】领域数据生成用于机器翻译

Original ShuYini AINLPer 2023-07-11

收录于合集

点击上方AINLPer，最新干货/论文每日送达！！

引言

保存从源到目标的领域知识在任何翻译工作流程中都至关重要。因为领域知识一般都比较有局限性，收集类似的数据集也比较困难，尤其在机器翻译这个研究方向上，因为它需要大量的领域数据进行训练。本次为大家分享的就是这篇文章就是要生成领域知识。

正文开始

1论文概要

神经机器翻译(NMT)在流畅性和充分性方面都有能力产生高质量的翻译。然而，当涉及到域外文本的翻译时，NMT仍然面临一些挑战。基于领域并行文本的机器翻译系统领域适配已经成为解决这一问题的一个活跃研究领域。

一些关于域适应的研究都默认领域数据是可用的。然而，由于缺乏专门的数据集和术语，或者可用的领域翻译不准确，域内数据稀缺在翻译设置中很常见。为此本文提出了一种新的领域适应方法，利用最先进的预训练语言模型(LMs)来对机器翻译的领域特定数据进行增强，模拟(a)一个小型双语数据集或(b)要翻译的单语言源文本的领域特征。将这个想法与反向翻译相结合，我们可以为两个用例生成大量的合成双语域内数据。

2

论文设计思路

在这项工作中，我们研究了领域内数据稀缺的两种情况（有限领域内双语数据和没有领域双语数据），并提出了利用预先训练的lm来生成领域特定数据的方法。

情况一、有限的领域内双语数据

这是接收专门翻译项目的常见场景，尽管有一个大型双语通用数据集和一个小型双语域内数据集(例如翻译记忆)，但域内数据不足以微调基线模型。我们将把这个用例称为案例1，针对这种情况，建议采取以下步骤: 1、采用目标语言中具有较大LM的文本生成来扩充域数据。在这个过程中，域内数据集中的每个目标句子都作为提示，使用预先训练好的语言模型生成合成片段。正如预期的那样，生成的文本保留了真实的域内数据的域特征。这一步使能够在目标语言中拥有足够的数据。 2、为了获得对应的源句子，我们对上一步生成的目标端合成句子进行反向翻译。 3、将混合微调应用于基线模型。换句话说，我们继续在以下两种数据的混合上训练我们的基线模型:(a)我们从前两个步骤中获得的合成双语领域数据集，以及(b)原始通用数据集的随机抽样部分，数据大小比例分别为1:9。为了应用过采样，我们使用OpenNMT-tf1中的数据集权重特征，权重分别为0.9和0.1。因此，数据集的权重与两个数据集的大小成反比由于域内语料库小于通用语料库，过采样使模型能够对两个语料库一视同仁。混合微调过程的结果是，我们得到了一个新的模型，该模型对域内数据的转换明显优于基线。

4、虽然新的微调模型仍然可以充分转换通用数据，但注意到它会降低1-2个BLEU点的性能。因此，用基线模型对微调后的模型进行检查点平均，以减少训练之间的可变性，并解决微调期间的快速过拟合问题。这个步骤有助于在通用数据上重新获得基线模型的较高评估分数，同时保留微调模型在域数据上的改进分数。

情况二、没有领域双语数据

在这种情况下，我们假设域内根本不存在双语数据。只有源文本需要翻译。从现在开始，我们将把这个用例称为案例2。 1、首先是使用基准机器翻译模型对源文本进行正向翻译。生成的翻译可能并不完美;但它仍然可以包含有关该领域的有用信息。对于没有并行数据的情况，这种方法会引导一些并行数据。

2、然后，我们遵循前面案例1中提到的相同的四个步骤。

3实验快照

1、自动评估

对多个模型检查点的参数进行了平均实验，以解决对近期训练数据的偏差。有时候，平均一个基线模型的多个检查点，或者平均一个基线模型和一个经过微调的模型可能会导致对我们的模型的自动和/或人工评估的额外改进。表5显示了域内测试数据集上的评估结果:

2、人为评估
由于翻译主要关注词汇选择、句法和语义，以及人们对它的理解，我们决定用人的评价来补充我们的评价过程。

4Paper && Code

TILE: Domain-Specific Text Generation for Machine Translation

Contributor : School of Computing, Dublin City UniversityPaper:https://arxiv.org/ftp/arxiv/papers/2208/2208.05909.pdfCode: https://github.com/ymoslem/mt-lm

如下载文章不便，也可发消息联系我

♥如果您喜欢AINLPer的文章♥

点击下方链接🔗关注我们叭

资料整理不易，请給个【赞】【在看】吧

一把短刀，怎么就让他连捅18人？！

向杨大市长道歉

向不容妄议的杨市长道歉

以色列搞大了：伊朗说要直接出兵参战

黄晓菁，这位杭州泰隆银行女员工自爆视频火了，带给我们那些思考？

【NLP论文分享&&源码】领域数据生成用于机器翻译

您可能也对以下帖子感兴趣

一把短刀，怎么就让他连捅18人？！

向杨大市长道歉

向不容妄议的杨市长道歉

以色列搞大了：伊朗说要直接出兵参战

黄晓菁，这位杭州泰隆银行女员工自爆视频火了，带给我们那些思考？

生成图片，分享到微信朋友圈

【NLP论文分享&&源码】领域数据生成用于机器翻译

您可能也对以下帖子感兴趣